Cách các bộ máy tìm kiếm phổ biến như Google, Cốc Cốc, Bing, Yahoo, etc hoạt động như thế nào? Bài viết này sẽ giải thích cụ thể cho bạn đọc thông qua 3 chức năng chính của các “cỗ máy tìm kiếm” (Search Engines) trên, bao gồm thu thập dữ liệu, lập chỉ mục và xếp hạng.
- Bộ máy tìm kiếm hoạt động như thế nào?
- Thu thập dữ liệu trên các bộ máy tìm kiếm hoạt động như thế nào?
- Lập chỉ mục trên các bộ máy tìm kiếm hoạt động như thế nào?
- Xếp hạng trên các bộ máy tìm kiếm hoạt động như thế nào?
- Trong SEO, không phải tất cả các bộ máy tìm kiếm đều bình đẳng
- Làm cách nào để các bộ máy tìm kiếm có thể tìm thấy website của bạn?
- Làm cách nào để các bộ máy tìm kiếm biết cách thu thập dữ liệu trang web của bạn
- Robots.txt
- Xác định các tham số URL trong Google Search Console
- Trình thu thập dữ liệu có thể tìm thấy tất cả nội dung quan trọng của bạn không?
- Bạn có đang sử dụng sitemaps không?
- Trình thu thập dữ liệu có gặp lỗi khi cố gắng truy cập vào URL của bạn không?
- Tạo các trang 404 tùy chỉnh!
- Chuyển hướng 301 đến địa chỉ (bài viết) mới
- Lập chỉ mục: Công cụ tìm kiếm mã hóa và lưu trữ các trang web của bạn như thế nào?
- Tôi có thể thấy cách trình thu thập dữ liệu của Googlebot tìm thấy các trang web của tôi không?
- Có bao giờ các trang web bị xóa khỏi chỉ mục không?
- Cho phép các bộ máy tìm kiếm biết cách lập chỉ mục trang web của bạn
- Chỉ thị meta (Robots meta directives)
- Các thẻ meta không ảnh hưởng đến việc thu thập dữ liệu nhưng lại ảnh hưởng đến việc lập chỉ mục của công cụ tìm kiếm
- Xếp hạng: Bộ máy tìm kiếm xếp hạng URL như thế nào?
- Bộ máy tìm kiếm muốn gì?
- Vai trò của các liên kết trong SEO
- Vai trò của nội dung trong SEO
- RankBrain là gì?
- Các chỉ số về mức độ tương tác
- Sự phát triển của kết quả tìm kiếm
- Tìm kiếm bản địa hóa (Localized search)
Các bộ máy tìm kiếm hoặc công cụ tìm kiếm (Search Engines) được xây dựng với mục đích hỗ trợ người dùng Internet khám phá, tìm hiểu và cung cấp câu trả lời cho những câu hỏi mà người dùng đặt ra. Để hiển thị trong kết quả tìm kiếm, nội dung của bạn trước tiên cần phải hiển thị cho các bộ máy tìm kiếm. Đây được cho là phần quan trọng nhất của hoạt động SEO (Search Engine Optimization – Tối ưu hóa công cụ tìm kiếm). Nếu không thể tìm thấy trang web của bạn, bạn sẽ không bao giờ xuất hiện trong SERPs (Search Engine Results Page – Trang kết quả của công cụ tìm kiếm).
Bộ máy tìm kiếm hoạt động như thế nào?
Các “cỗ máy tìm kiếm” này hoạt động thông qua ba chức năng chính:
- Thu thập dữ liệu : Tìm kiếm nội dung trên Internet, xem qua mã/nội dung cho từng URL;
- Lập chỉ mục : Sắp xếp và lưu trữ nội dung được tìm thấy trong quá trình thu thập dữ liệu. Khi một trang đã có trong chỉ mục, nó sẽ được hiển thị cho các kết quả của các hoạt động truy vấn dữ liệu.
- Xếp hạng : Cung cấp các phần nội dung sẽ trả lời tốt nhất cho các câu hỏi của người dùng, có nghĩa là các kết quả được sắp xếp theo thứ tự phù hợp nhất đến ít liên quan nhất.
Thu thập dữ liệu trên các bộ máy tìm kiếm hoạt động như thế nào?
Thu thập dữ liệu là quá trình khám phá trong đó các bộ máy tìm kiếm gửi một nhóm robot (được gọi là trình thu thập thông tin hoặc trình thu thập dữ liệu) để tìm nội dung mới và cập nhật các nội dung đó.
Các nội dung này có thể bao gồm trang web, hình ảnh, video, PDF, v.v. nhưng bất kể định dạng nào, nội dung đều được khám phá thông qua các liên kết.
Googlebot bắt đầu bằng cách tìm nạp một vài trang web, sau đó đi theo các liên kết trên website để tìm các URL mới.
Bằng cách này, trình thu thập dữ liệu có thể tìm thấy nội dung mới và thêm nội dung đó vào chỉ mục của Google, điều này được gọi là Caffeine – một cơ sở dữ liệu khổng lồ về các URL được phát hiện – sau này sẽ được truy xuất khi người dùng Internet tìm kiếm thông tin mà nội dung trên URL đó có liên quan.
Lập chỉ mục trên các bộ máy tìm kiếm hoạt động như thế nào?
Các bộ máy tìm kiếm sẽ xử lý và lưu trữ thông tin mà chúng tìm thấy trong chỉ mục, một cơ sở dữ liệu khổng lồ về tất cả nội dung mà chúng đã khám phá và cho là đủ tốt để phục vụ cho hoạt động truy vấn dữ liệu của người dùng.
Xếp hạng trên các bộ máy tìm kiếm hoạt động như thế nào?
Khi người dùng Internet tìm kiếm điều gì đó, các công cụ tìm kiếm sẽ “lùng sục” trong chỉ mục của chúng để tìm các nội dung có liên quan nhất và xếp hạng các nội dung đó với hy vọng giải quyết được hoạt động truy vấn của người dùng, và thứ tự của các kết quả tìm kiếm được sắp xếp theo mức độ liên quan được gọi là xếp hạng. Nói chung, bạn có thể giả định rằng một trang web được xếp hạng càng cao, thì công cụ tìm kiếm càng tin rằng trang web đó có liên quan đến các hoạt động truy vấn.
Ngoài ra, bạn cũng có thể chặn trình thu thập thông tin của các bộ máy tìm kiếm khỏi một phần hay toàn bộ trang web của bạn, hoặc thậm chí hướng dẫn các bộ máy tìm kiếm tránh lưu trữ một số trang website nhất định trong chỉ mục của chúng. Nhưng nếu bạn muốn nội dung của mình được người dùng tìm thấy, trước tiên bạn phải đảm bảo rằng trình thu thập dữ liệu trên website của mình có thể được truy cập và lập chỉ mục. Nếu không, website của bạn sẽ như “người vô hình” trong mắt người dùng Internet.
Trong SEO, không phải tất cả các bộ máy tìm kiếm đều bình đẳng
Hầu hết mọi người đều biết rằng Google chiếm nhiều thị phần nhất trong giới “tìm kiếm thông tin”, nhưng điều quan trọng là làm cách nào để tối ưu hóa trên cả Bing, Yahoo hoặc các bộ máy tìm kiếm khác? Và tại sao với hơn 30 công cụ tìm kiếm, cộng đồng SEO chỉ thực sự chú ý đến Google?
Câu trả lời đơn giản vì Google là nơi mà đại đa số mọi người dùng tìm kiếm trên Internet, bao gồm Google Hình ảnh, Google Maps và YouTube. Theo thống kế, hơn 90% tìm kiếm trên Internet xảy ra trên Google – con số này gần 20 lần Bing và Yahoo cộng lại.
Làm cách nào để các bộ máy tìm kiếm có thể tìm thấy website của bạn?
Như bạn vừa tìm hiểu, hãy đảm bảo trang web của bạn được thu thập dữ liệu và lập chỉ mục là điều kiện đầu tiên để có mặt trong trong SERPs. Nếu bạn đã có một trang web, có thể bắt đầu bằng cách xem có bao nhiêu trang của bạn trong chỉ mục.
Điều này sẽ giải đáp cho câu hỏi liệu Google có đang thu thập thông tin và tìm thấy tất cả các trang bạn muốn hay không? Một cách để kiểm tra các trang web của bạn đã được lập chỉ mục hay chưa chính là thuật toán “site:yourdomain.com”.
Sau khi truy cập Google, nhập “site:yourdomain.com” vào thanh tìm kiếm và Google sẽ trả về kết quả mà “gã khổng lồ” này có trong chỉ mục của mình cho trang web được chỉ định:
Số lượng kết quả mà Google hiển thị có thể không chính xác, nhưng nó cung cấp chính xác thông tin về những trang web nào được lập chỉ mục trên website của bạn và cách chúng hiện đang hiển thị trong kết quả tìm kiếm.
Để có kết quả chính xác hơn, hãy theo dõi và sử dụng báo cáo Trạng thái lập chỉ mục (Index Coverage) trong Google Search Console.
Bạn có thể đăng ký miễn phí Tài khoản nếu bạn không có. Với công cụ này, bạn có thể gửi sơ đồ trang web của mình và theo dõi số lượng trang đã được thêm vào chỉ mục của Google.
Nếu website của bạn không hiển thị ở bất kỳ đâu trong kết quả tìm kiếm, có thể là vì một số lý do sau đây:
- Trang web của bạn là thương hiệu mới và chưa được thu thập dữ liệu;
- Trang web của bạn không được liên kết với bất kỳ trang web bên ngoài nào;
- Điều hướng trang web của bạn khiến robot khó thu thập dữ liệu;
- Trang web của bạn chứa mã có chức năng chặn mọi hoạt động thu thập dữ liệu;
- Trang web của bạn đã bị Google phạt vì hoạt động spam;
Làm cách nào để các bộ máy tìm kiếm biết cách thu thập dữ liệu trang web của bạn
Nếu bạn đã sử dụng Google Search Console hoặc thuật toán “site:domain.com” và nhận thấy rằng một số trang quan trọng của bạn bị thiếu trong chỉ mục hoặc một số trang không quan trọng đã bị lập chỉ mục nhầm, bạn có thể giải quyết các vấn đề này thông qua việc hướng dẫn Googlebot thu thập đúng nội dung trên website của bạn.
Hầu hết mọi người đều nghĩ đến việc đảm bảo Google có thể tìm thấy các trang quan trọng của họ, nhưng rất dễ quên rằng có những trang mà bạn không muốn Googlebot tìm thấy. Chúng có thể bao gồm URL cũ có nội dung kém hấp dẫn, URL bị trùng lặp, trang web khuyến mại đặc biệt, trang web thử nghiệm v.v.
Để hướng Googlebot thu thập đúng dữ liệu và lập chỉ mục các trang website quan trọng, hãy sử dụng robots.txt.
Robots.txt
Tệp Robots.txt được đặt trong thư mục gốc của các trang web (ví dụ: yourdomain.com/robots.txt) và đưa ra các đề xuất cho phép các “gã khổng lồ tìm kiếm” các URL hoặc nội dung nên và không nên thu thập dữ liệu, tương tự như tốc độ thu thập dữ liệu trang web.
Xác định các tham số URL trong Google Search Console
Một số trang web, đặc biệt là các website thương mại điện tử như Shopee, Lazada, Tiki, Sendo, thường cung cấp cùng một nội dung trên nhiều URL khác nhau bằng cách thêm các thông số nhất định vào URL.
Nếu bạn đã từng mua sắm online, bạn có thể đã thu hẹp tìm kiếm của mình qua các bộ lọc. Ví dụ: bạn có thể tìm kiếm “giày” trên Shopee, sau đó thu hẹp tìm kiếm theo kích cỡ, màu sắc và kiểu dáng. Mỗi lần bạn chỉnh sửa tìm kiếm, URL sẽ thay đổi một chút.
Ví dụ:
- https://www.example.com/products/women/dresses/green.htm
- https://www.example.com/products/women?category=dresses&color=green
- https://example.com/shopindex.php?product_id=32&highlight=green+dress&cat_id=1&sessionid=123&affid=43
Vậy làm cách nào để Google lựa chọn URL thích hợp nhất?
Google sẽ tự tìm ra URL gốc, tuy nhiên bạn cũng có thể sử dụng tính năng Tham số URL (URL Parameters) trong Google Search Console để cho Google biết chính xác cách bạn muốn họ xử lý các trang của mình.
Trình thu thập dữ liệu có thể tìm thấy tất cả nội dung quan trọng của bạn không?
Đôi khi công cụ tìm kiếm có thể tìm thấy các phần của trang web của bạn bằng cách thu thập thông tin, nhưng các trang hoặc thành phần nội dung trong trang web có thể bị “vô hình” vì nhiều lý do khác nhau. Điều quan trọng là đảm bảo rằng các công cụ tìm kiếm có thể khám phá tất cả nội dung bạn muốn được lập chỉ mục chứ không chỉ trang chủ của bạn.
Nội dung của website có bị ẩn trong các biểu mẫu đăng nhập (login forms) không?
Nếu bạn yêu cầu người dùng đăng nhập, điền vào biểu mẫu hoặc trả lời khảo sát trước khi truy cập nội dung nhất định, các bộ máy tìm kiếm sẽ không nhìn thấy các trang được bảo vệ đó.
Văn bản có bị ẩn trong nội dung không phải văn bản (non-text content) không?
Không nên sử dụng các biểu mẫu phương tiện không phải văn bản (hình ảnh, video, GIF, v.v.) để hiển thị văn bản mà bạn muốn được lập chỉ mục. Trong khi các công cụ tìm kiếm ngày càng nhận ra hình ảnh tốt hơn, không có gì đảm bảo rằng chúng sẽ có thể đọc và hiểu nó. Tốt nhất là luôn luôn thêm văn bản trong đánh dấu trang web của bạn.
Bộ máy tìm kiếm có thể theo dõi điều hướng trang web của bạn không?
Cũng giống như trình thu thập dữ liệu, các bộ máy tìm kiếm cần khám phá trang web của bạn thông qua các liên kết từ các trang web khác, trình thu thập thông tin cần một đường dẫn liên kết trên trang web của riêng bạn để hướng dẫn nó từ trang này sang trang khác. Nếu bạn có một trang mà bạn muốn công cụ tìm kiếm tìm thấy nhưng nó không được liên kết đến từ bất kỳ trang nào khác, thì nó đang bị ẩn.
Nhiều trang web mắc sai lầm nghiêm trọng khi cấu trúc điều hướng của họ theo những cách mà các công cụ tìm kiếm không thể tiếp cận được, cản trở khả năng được liệt kê trong kết quả tìm kiếm.
Các lỗi điều hướng phổ biến có thể khiến trình thu thập dữ liệu không nhìn thấy tất cả trang web của bạn:
- Điều hướng trên thiết bị di động hiển thị kết quả khác với điều hướng trên máy tính;
- Điều hướng có menu không có trong giao diện HTML, ví dụ như điều hướng hỗ trợ ngôn ngữ lập trình JavaScript;
- Cá nhân hóa hoặc hiển thị điều hướng duy nhất cho một loại khách truy cập cụ thể so với những người khác sẽ hạn chế trình thu thập dữ liệu của các bộ máy tìm kiếm;
- Quên liên kết đến một trang chính trên trang web của bạn thông qua điều hướng – hãy nhớ rằng, liên kết là đường dẫn mà trình thu thập thông tin đi theo đến các trang mới!
Đây là lý do tại sao trang web của bạn phải có điều hướng rõ ràng và cấu trúc thư mục URL phù hợp.
Bạn có đang sử dụng sitemaps không?
Sitemaps là một danh sách các URL trên trang web của bạn mà trình thu thập dữ liệu có thể sử dụng để khám phá và lập chỉ mục nội dung. Sitemaps cũng là một trong những cách dễ nhất là đảm bảo Google tìm thấy các trang web có mức độ ưu tiên cao nhất và gửi nó qua Google Search Console.
Việc gửi sitemaps không thay thế cách điều hướng website nhưng nó chắc chắn có thể giúp trình thu thập dữ liệu đến tất cả các trang web quan trọng của bạn. Đảm bảo rằng bạn chỉ bao gồm các URL mà bạn muốn các công cụ tìm kiếm lập chỉ mục và đảm bảo cung cấp cho trình thu thập dữ liệu chỉ dẫn nhất quán. Ví dụ: không bao gồm một URL trong sitemaps của bạn nếu bạn đã chặn URL đó qua robots.txt hoặc bao gồm các URL trong sơ đồ trang web của bạn trùng lặp thay vì phiên bản chuẩn, được ưu tiên.
Nếu trang web của bạn không có bất kỳ trang web nào khác liên kết đến nó, bạn vẫn có thể lập chỉ mục nó bằng cách gửi sơ đồ trang XML của bạn trong Google Search Console.
Trình thu thập dữ liệu có gặp lỗi khi cố gắng truy cập vào URL của bạn không?
Trong quá trình thu thập dữ liệu trên các URL, bộ máy tìm kiếm có thể gặp lỗi. Bạn có thể truy cập vào báo cáo “Lỗi thu thập dữ liệu (Crawl Errors)” của Google Search Console để xem các lỗi từ máy chủ hoặc lỗi không tìm thấy để tìm kiếm giải pháp khắc phục. Các lỗi bạn thường gặp sẽ được chúng tôi liệt kê bên dưới.
Mã 4xx: Khi trình thu thập dữ liệu của bộ máy tìm kiếm không thể truy cập nội dung của bạn do lỗi máy khách (client error)
Lỗi 4xx có nghĩa là URL được yêu cầu chứa cú pháp sai hoặc không thể thực hiện được. Một trong những lỗi 4xx phổ biến nhất là lỗi “404 – not found”. Nguyên nhân do lỗi đánh máy URL, trang bị xóa hoặc chuyển hướng bị hỏng, etc.
Lưu ý: Khi người dùng gặp quá nhiều lỗi 404, họ có thể bực bội và bỏ đi.
Mã 5xx: Khi trình thu thập dữ liệu của bộ máy tìm kiếm không thể truy cập nội dung của bạn do lỗi máy chủ (server error)
Lỗi 5xx có nghĩa là máy chủ, nơi địa chỉ của trang web được đặt, không thực hiện được yêu cầu của người tìm kiếm hoặc bộ máy tìm kiếm không thể truy cập trang.
Trong báo cáo “Lỗi thu thập dữ liệu” của Google Search Console, có một tab dành riêng cho những lỗi này. Nguyên nhân của lỗi này là do yêu cầu URL đã hết thời gian chờ, vì vậy Googlebot đã từ bỏ yêu cầu.
Xem thêm Tài liệu của Google để tìm hiểu thêm về cách khắc phục sự cố kết nối máy chủ.
Tạo các trang 404 tùy chỉnh!
Tùy chỉnh trang 404 của bạn bằng cách thêm liên kết đến các trang quan trọng trên trang web của bạn, tính năng tìm kiếm trang web và thậm chí cả thông tin liên hệ.
Điều này sẽ làm giảm khả năng khách truy cập thoát khỏi trang web của bạn khi họ gặp quá nhiều lỗi 404.
Chuyển hướng 301 đến địa chỉ (bài viết) mới
Rất may, có một cách để cho cả người tìm kiếm và công cụ tìm kiếm biết rằng trang của bạn đã di chuyển – chuyển hướng 301 (permanent).
Giả sử bạn chuyển một trang từ example.com/young-dogs/ đến example.com/puppies/. Bộ máy tìm kiếm và người dùng cần một cầu nối để chuyển từ URL cũ sang URL mới. Cầu nối đó là chuyển hướng 301.
Bản thân mã 301 có nghĩa là trang đã vĩnh viễn chuyển đến một vị trí mới, vì vậy, hãy tránh chuyển hướng URL đến các trang không liên quan – những URL mà nội dung của URL cũ không thực sự tồn tại.
Nếu một trang đang xếp hạng cho một truy vấn và bạn điều hướng nó theo 301 đến một URL có nội dung khác, nó có thể bị tụt hạng vì nội dung làm cho nó có liên quan đến truy vấn cụ đó không còn ở đó nữa.
Bạn cũng có tùy chọn 302 chuyển hướng một trang, nhưng điều này nên được dành cho các bước di chuyển tạm thời và trong trường hợp việc chuyển hướng liên kết không đáng lo ngại (thường sử dụng chuyển hướng đến các trang không phải của bạn hoặc các trang bạn nghi ngờ về chất lượng).
302 giống như một con đường vòng. Bạn đang tạm thời thu hẹp lưu lượng truy cập qua một tuyến đường nhất định, nhưng nó sẽ không như vậy mãi mãi.
Yếu tố | Khi bạn sử dụng chuyển hướng 301 | Khi bạn KHÔNG sử dụng chuyển hướng 301 |
---|---|---|
Sức mạnh & chất lượng của link | Chuyển sức mạnh của link cũ sang link mới | Không sử dụng 301, sức mạnh của link cũ sẽ không chuyển sang link mới |
Lập chỉ mục (Indexing) | Giúp Google tìm và lập chỉ mục phiên bản mới của trang. | Sự hiện diện của lỗi 404 trên trang web của bạn không ảnh hưởng đến hiệu suất tìm kiếm, nhưng việc để các trang 404 được xếp hạng có thể khiến chúng bị loại khỏi chỉ mục cùng với thứ hạng và lưu lượng truy cập. |
Trải nghiệm người dùng (User Experience) | Đảm bảo người dùng tìm thấy trang mà họ đang tìm kiếm. | Việc để người dùng của bạn nhấp vào các liên kết chết sẽ đưa họ đến các trang lỗi thay vì trang dự định, điều này có thể gây khó chịu. |
Lập chỉ mục: Công cụ tìm kiếm mã hóa và lưu trữ các trang web của bạn như thế nào?
Khi bạn đã đảm bảo rằng trang web của mình đã được thu thập dữ liệu, yêu cầu tiếp theo của công việc là đảm bảo rằng nó có thể được lập chỉ mục. Vì khi trang web của bạn có thể được phát hiện và thu thập dữ liệu bởi các bộ máy tìm kiếm không nhất thiết có nghĩa là nó sẽ được lưu trữ trong chỉ mục trên bộ máy tìm kiếm. Trong phần trước về thu thập thông tin, chúng ta đã thảo luận về cách các công cụ tìm kiếm khám phá các trang web của bạn.
Chỉ mục là nơi lưu trữ các trang web của bạn đã được bộ máy tìm kiếm khám phá & thu thập. Sau khi trình thu thập dữ liệu tìm thấy một trang, công cụ tìm kiếm sẽ hiển thị trang đó giống như một trình duyệt. Trong quá trình làm như vậy, công cụ tìm kiếm sẽ phân tích nội dung của trang đó. Tất cả thông tin đó được lưu trữ trong chỉ mục của nó.
Tôi có thể thấy cách trình thu thập dữ liệu của Googlebot tìm thấy các trang web của tôi không?
Có, phiên bản được lưu trong bộ nhớ cache trang web của bạn sẽ phản ánh ảnh lần cuối cùng Googlebot thu thập dữ liệu trang đó. Google thu thập thông tin và lưu trữ các trang web ở các tần suất khác nhau.
Các trang web nổi tiếng, lâu đời hơn đăng thường xuyên như https://www.nytimes.com sẽ được thu thập thông tin thường xuyên hơn so với trang web ít nổi tiếng hơn nhiều. Bạn có thể xem phiên bản được lưu trong bộ nhớ cache của website trông như thế nào bằng cách nhấn vào mũi tên bên cạnh URL của website và chọn “Đã lưu”:
Có bao giờ các trang web bị xóa khỏi chỉ mục không?
Có, các trang web có thể bị xóa khỏi chỉ mục vì một số lý do sau đây:
- URL trả về lỗi 4XX hoặc lỗi 5XX do nguyên nhân ngẫu nhiên hoặc cố ý
- URL đã được thêm thẻ meta ngăn chặn việc lập chỉ mục – Chủ sở hữu trang web có thể thêm thẻ này để hướng dẫn công cụ tìm kiếm loại bỏ trang khỏi chỉ mục của nó.
- URL đã bị phạt theo cách thủ công vì vi phạm Nguyên tắc quản trị trang web của công cụ tìm kiếm và kết quả là URL đã bị xóa khỏi chỉ mục.
- URL đã bị chặn thu thập thông tin do sử dụng mật khẩu bắt buộc trước khi khách truy cập có thể truy cập trang.
Cho phép các bộ máy tìm kiếm biết cách lập chỉ mục trang web của bạn
Chỉ thị meta (Robots meta directives)
Chỉ thị meta là các hướng dẫn cung cấp cho các bộ máy tìm kiếm về cách bạn muốn trang web của mình được xử lý. Bạn có thể nói với trình thu thập dữ liệu của công cụ tìm kiếm những điều như “không lập chỉ mục (noindex) trang này trong kết quả tìm kiếm” hoặc “không chuyển sức mạnh đến bất kỳ liên kết trong trang này (nofollow)”.
Thẻ meta
Thẻ meta có thể được sử dụng trong HTML của trang web của bạn. Nó có thể loại trừ tất cả hoặc các công cụ tìm kiếm cụ thể. Sau đây là những chỉ thị meta phổ biến nhất, cùng với những trường hợp bạn có thể áp dụng chúng.
index / noindex
Cho các công cụ biết liệu trang có nên được thu thập dữ liệu và giữ trong chỉ mục của công cụ tìm kiếm để truy xuất hay không. Nếu bạn chọn sử dụng “noindex”, bạn đang nói với các trình thu thập thông tin rằng bạn muốn trang bị loại trừ khỏi kết quả tìm kiếm. Theo mặc định, các công cụ tìm kiếm cho rằng chúng có thể lập chỉ mục tất cả các trang, vì vậy việc sử dụng giá trị “chỉ mục (index)” là không cần thiết.
Khi nào bạn có thể sử dụng: Bạn có thể chọn đánh dấu một trang là “noindex” nếu bạn đang cố gắng giảm thiểu các trang các nội dung kém hấp dẫn (ví dụ: các trang hồ sơ do người dùng tạo) nhưng bạn vẫn muốn khách truy cập chúng.
dofollow / nofollow
Cho các công cụ tìm kiếm biết liệu các liên kết trên trang nên được theo dõi hay không được theo dõi. “dofollow” sẽ nói các robot theo dõi và truyền sức mạnh cho các liên kết (link equity) trong trang hoặc bài viết của bạn. Hoặc, nếu bạn chọn sử dụng “nofollow”, các công cụ tìm kiếm sẽ không theo dõi hoặc chuyển bất kỳ sức mạnh đến các liên kết trong trang. Theo mặc định, tất cả các trang được giả định có thuộc tính “dofollow”.
Khi nào bạn có thể sử dụng: Do khá tương đồng với noindex nên cả 2 thường được sử dụng chung khi đang cố gắng ngăn một trang web được lập chỉ mục cũng như ngăn trình thu thập dữ liệu theo dõi các liên kết.
noarchive
Được vận dụng để tối thiểu hoạt động sao lưu trong bộ nhớ cache của các công cụ tìm kiếm trên website. Theo mặc định, các công cụ sẽ duy trì các bản sao hiển thị của tất cả các trang mà chúng đã lập chỉ mục, người dùng thể truy cập được thông qua liên kết được lưu trong bộ nhớ cache trong kết quả tìm kiếm.
Khi nào bạn có thể sử dụng: Nếu bạn quản lý một trang web thương mại điện tử và giá của bạn thay đổi thường xuyên, bạn có thể xem xét thẻ noarchive để ngăn người tìm kiếm thấy giá cũ của sản phẩm.
Dưới đây là một ví dụ về thẻ meta robots noindex, nofollow:
<!DOCTYPE html><html><head><meta name=”robots” content=”noindex, nofollow” /></head><body>…</body></html>
Ví dụ này loại trừ tất cả các công cụ tìm kiếm lập chỉ mục trang web và theo dõi bất kỳ liên kết trên trang này.
Các thẻ meta không ảnh hưởng đến việc thu thập dữ liệu nhưng lại ảnh hưởng đến việc lập chỉ mục của công cụ tìm kiếm
Googlebot cần thu thập dữ liệu trang của bạn để xem các lệnh meta của nó, vì vậy nếu bạn đang cố gắng ngăn trình thu thập dữ liệu truy cập các trang nhất định, thì lệnh meta không phải là cách để làm điều đó.
X-Robots-Tag
X-Robots-Tag được sử dụng trong HTTP header và có tính linh hoạt hơn thẻ meta. Nếu bạn muốn chặn các công cụ tìm kiếm trên quy mô lớn, bạn có thể chặn các tệp không phải HTML và áp dụng các thẻ noindex trên website.
Ví dụ: Có thể loại trừ toàn bộ thư mục hoặc loại tệp như blogkinhdoanh.net/no-bake/old-recipes-to-noindex bằng cách thiết lập câu lệnh sau trong tập tin .htaccess của máy chủ Apache:
<Files ~ “\/?no\-bake\/.*”> Header set X-Robots-Tag “noindex, nofollow”</Files>
Hoặc các loại tệp cụ thể (như PDF):
<Files ~ “\.pdf$”> Header set X-Robots-Tag “noindex, nofollow”</Files>
Để biết thêm thông tin về Thẻ Meta, hãy tham khảo bài viết về Thông số kỹ thuật thẻ meta của Google .
Xếp hạng: Bộ máy tìm kiếm xếp hạng URL như thế nào?
Làm cách nào để các bộ máy tìm kiếm đảm bảo rằng khi ai đó nhập từ khoá truy vấn vào thanh tìm kiếm, họ sẽ nhận được các kết quả có liên quan? Quá trình đó được gọi là xếp hạng, hoặc thứ tự các kết quả tìm kiếm sẽ được sắp xếp theo liên quan nhất đến ít liên quan nhất.
Để xác định mức độ liên quan, các công cụ tìm kiếm sử dụng các thuật toán, một quy trình hoặc công thức mà thông tin được lưu trữ, truy xuất và sắp xếp theo những cách có ý nghĩa. Các thuật toán này đã trải qua nhiều thay đổi trong nhiều năm để cải thiện chất lượng kết quả tìm kiếm.
Ví dụ, Google thực hiện các điều chỉnh thuật toán hàng ngày – một số trong số các bản cập nhật này là những chỉnh sửa nhỏ về chất lượng, trong khi những bản cập nhật khác là các bản cập nhật thuật toán cốt lõi được triển khai để giải quyết một vấn đề cụ thể, như Penguin để giải quyết spam liên kết.
Tại sao thuật toán thay đổi thường xuyên như vậy? Có phải Google chỉ đang cố gắng giữ chân chúng ta không? Mặc dù Google không phải lúc nào cũng tiết lộ chi tiết cụ thể về lý do tại sao họ làm như vậy, nhưng chúng tôi biết rằng mục tiêu của Google khi thực hiện các điều chỉnh thuật toán là cải thiện chất lượng tìm kiếm của người dùng.
Đó là lý do tại sao, để trả lời các câu hỏi cập nhật thuật toán, Google sẽ trả lời bằng một số điều như sau: “Chúng tôi luôn cập nhật chất lượng.” Điều này cho thấy rằng, nếu trang web của bạn bị ảnh hưởng sau khi điều chỉnh thuật toán, hãy so sánh nó với Nguyên tắc Chất lượng của Google hoặc Nguyên tắc đánh giá chất lượng tìm kiếm cả hai đều nói về những gì mà bộ máy tìm kiếm của Google muốn.
Bộ máy tìm kiếm muốn gì?
Các bộ máy tìm kiếm luôn mong muốn cung cấp câu trả lời hữu ích cho các câu hỏi của người dùng. Vậy tại sao hoạt động SEO bây giờ lại khác so với những năm trước?
Lúc đầu, sự hiểu biết của họ về ngôn ngữ này rất thô sơ. Theo thời gian, sự hiểu biết của họ bắt đầu sâu sắc hơn và họ học ngữ nghĩa – ý nghĩa đằng sau ngôn ngữ và mối quan hệ giữa các từ và cụm từ. Cuối cùng, như một “học sinh giỏi văn” biết vận dụng ngôn ngữ để hiểu các câu hỏi mơ hồ hoặc không đầy đủ rồi cung cấp đúng câu trả lời cho người dùng.
Khi các công cụ tìm kiếm mới bắt đầu học ngôn ngữ của chúng ta, việc đánh lừa hệ thống bằng cách sử dụng các thủ thuật đi ngược lại với các nguyên tắc về chất lượng sẽ dễ dàng hơn nhiều. Lấy ví dụ như nhồi nhét từ khóa. Nếu bạn muốn xếp hạng cho một từ khóa cụ thể như “chuyện cười”, bạn có thể thêm các từ “chuyện cười” nhiều lần vào trang của mình và tô đậm, với hy vọng tăng thứ hạng của bạn cho cụm từ đó.
Chiến thuật này tạo ra trải nghiệm người dùng tồi tệ, và thay vì cười vào những trò đùa hài hước, mọi người lại bị tấn công bởi văn bản khó đọc, khó chịu. Cách này có thể đã hoạt động hiệu quả trong quá khứ, nhưng không bao giờ là điều mà các bộ máy tìm kiếm muốn và bạn sẽ bị rớt hạng thảm hại khi họ cải thiện thuật toán ngày càng tốt hơn.
Vai trò của các liên kết trong SEO
Khi chúng ta nói về các liên kết, chúng ta có thể muốn nói đến hai điều. Backlinks hoặc “inbound links” là liên kết từ các trang web khác trỏ đến trang web của bạn, trong khi internal links (liên kết nội bộ) là các liên kết trên trang web của bạn được trỏ đến nhau.
Các liên kết đã đóng một vai trò lớn trong lịch sử của SEO. Ngay từ rất sớm, các công cụ tìm kiếm đã cần trợ giúp để tìm ra URL nào đáng tin cậy hơn những URL khác để giúp họ xác định cách xếp hạng kết quả tìm kiếm.
Tính toán số lượng liên kết trỏ đến bất kỳ trang web nào đã giúp họ thực hiện điều này. Các backlinks hoạt động rất giống với hoạt động “truyền miệng” WoM (Word-of-Mouth) trong đời thực.
Ví dụ về quán cafe Highlands Coffee :
- Giới thiệu từ người khác = dấu hiệu tốt của chất lượng
- Ví dụ: Bạn bè của bạn khi hẹn gặp nhau họ thường lấy Highlands Coffee làm nơi gặp nên bạn có thể nghĩ rằng Highlands Coffee là một nơi thuận tiện và có thức uống ngon hơn các quán khác.
- Giới thiệu từ chính bạn = thiên vị, không thể hiện được chất lượng thực sự ở quán
- Ví dụ: Highlands Coffee quảng cáo rằng họ là quán cafe số 1 tại Việt Nam? Bạn sẽ thực sự nghi ngờ khi họ tuyên bố về họ như vậy.
- Giới thiệu từ các nguồn không liên quan hoặc chất lượng thấp = không thể hiện được chất lượng thực sự ở quán và thậm chí bị gắn cờ vì lý do spam
- Ví dụ: Highlands Coffee đã trả tiền để những người chưa bao giờ đến quán cà phê của họ nói cho người khác biết nó tốt như thế nào. Trường hợp này khá khó để xác định trừ khi Google có những dấu hiệu rõ ràng và bạn làm quá lộ liễu.
- Không có giới thiệu = chất lượng không rõ ràng
- Ví dụ: Highlands Coffee có thể tốt, nhưng bạn không thể tìm thấy bất kỳ ai có ý kiến về Highlands Coffee nên bạn không thể chắc chắn về chất lượng của họ.
Đây là lý do tại sao PageRank được tạo. PageRank (một phần của thuật toán của Google) là một thuật toán giúp phân tích các liên kết được đặt trong từng trang web được đặt tên theo một trong 2 người sáng lập của Google, Larry Page.
PageRank ước tính tầm quan trọng của mỗi website được đo lường bằng cả số lượng và chất lượng của các liên kết được trỏ đến website. Giả định rằng một trang web càng có liên quan, quan trọng và đáng tin cậy thì trang web đó có nhiều liên kết trỏ đến.
Bạn càng có nhiều backlink từ các trang web đáng tin cậy (có chất lượng nội dung được đánh giá tốt), thì tỷ lệ xếp hạng của bạn càng cao trong kết quả tìm kiếm.
Vai trò của nội dung trong SEO
Nội dung không chỉ là chữ, đó là bất cứ thứ gì được người dùng sử dụng – có nội dung video, nội dung hình ảnh và tất nhiên, văn bản. Nếu công cụ tìm kiếm là máy trả lời, thì nội dung là phương tiện mà công cụ cung cấp những câu trả lời đó.
Bất kỳ lúc nào ai đó thực hiện tìm kiếm, có thể có hàng nghìn kết quả, vậy làm cách nào để các công cụ tìm kiếm quyết định trang nào mà người tìm kiếm sẽ tìm thấy có giá trị?
Một phần quan trọng trong việc xác định vị trí trang của bạn sẽ xếp hạng cho một truy vấn nhất định là mức độ phù hợp của nội dung trên trang của bạn với mục đích của truy vấn. Nói cách khác, trang này có khớp với các từ đã được tìm kiếm và giúp hoàn thành nhiệm vụ mà người tìm kiếm đang cố gắng hoàn thành không?
Vì điều này tập trung vào sự hài lòng của người dùng và hoàn thành nhiệm vụ, không có tiêu chuẩn rõ ràng nào về thời lượng nội dung của bạn, số lần nội dung phải chứa một từ khóa hoặc những gì bạn đặt trong các thẻ tiêu đề của mình.
Tất cả những thứ đó có thể đóng một vai trò quan trọng trong việc một trang hoạt động tốt như thế nào trong tìm kiếm, nhưng trọng tâm phải là những người dùng sẽ đọc nội dung.
Ngày nay, với hàng trăm hoặc thậm chí hàng nghìn tín hiệu xếp hạng, ba tín hiệu hàng đầu vẫn khá nhất quán: liên kết đến trang web của bạn (đóng vai trò là tín hiệu uy tín của bên thứ ba), nội dung trên trang (nội dung chất lượng đáp ứng ý định của người tìm kiếm) và RankBrain.
RankBrain là gì?
RankBrain là thành phần máy học quan trọng nhất trong thuật toán của Google. Máy học là một chương trình máy tính tiếp tục cải thiện các dự đoán của nó theo thời gian thông qua các phân tích và cập nhật dữ liệu mới.
Nói cách khác, nó luôn học hỏi và bởi vì nó luôn học hỏi, nên kết quả tìm kiếm sẽ không ngừng được cải thiện.
Điều này có ý nghĩa gì đối với người làm SEO?
Bởi vì Google sẽ sử dụng RankBrain để đẩy các nội dung hữu ích, phù hợp nhất lên kết quả tìm kiếm. Thế nên, người làm SEO cần tập trung vào việc cải thiện nội dung cho người dùng trên Internet. Việc cung cấp các thông tin và trải nghiệm tốt nhất có thể giúp cho những người dùng có thể truy cập trang của bạn có trải nghiệm tìm kiếm tốt hơn, đồng thời đây cũng là bước đầu trong hoạt động RankBrain.
Các chỉ số về mức độ tương tác
Với xếp hạng của Google, các số liệu về mức độ tương tác rất quan trọng. Khi chúng tôi nói chỉ số tương tác, chúng tôi muốn nói đến dữ liệu đại diện cho cách người tìm kiếm tương tác với trang web của bạn từ kết quả tìm kiếm. Điều này bao gồm những thứ như:
- Số lần nhấp chuột (Clicks): Lượt truy cập từ tìm kiếm
- Thời gian trên trang (Time on page): Lượng thời gian mà người dùng truy cập đã dành trên một trang trước khi rời khỏi trang đó
- Tỷ lệ thoát (Bounce rate): Tỷ lệ % tất cả các phiên trong website mà người dùng chỉ xem trong một trang
- Pogo-stick : Lượt nhấp vào một kết quả không phải trả tiền và sau đó nhanh chóng quay lại SERP để chọn một kết quả khác
Google đã nói gì?
Mặc dù Google chưa bao giờ sử dụng thuật ngữ “tín hiệu để xếp hạng” (direct ranking signal), nhưng “gã khổng lồ tìm kiếm” này đã cho rằng họ đang sử dụng dữ liệu nhấp chuột để sửa đổi SERP cho các truy vấn cụ thể. Theo Udi Manber – cựu CEO về chất lượng tìm kiếm trên Google :
“Nếu chúng tôi phát hiện ra rằng, đối với một truy vấn cụ thể, 80% người nhấp vào # 2 và chỉ 10% nhấp vào # 1, sau một thời gian, chúng tôi nhận ra có lẽ # 2 là thứ mọi người muốn, vì vậy chúng tôi sẽ chuyển nó. ”
Google confirms watching clicks to evaluate results quality. FYI Google still won't say if clicks used as rank signal pic.twitter.com/jzNGc5reQk
— Danny Sullivan (@dannysullivan) March 25, 2015
Một bình luận khác từ cựu kỹ sư của Google, Edmond Lau đã nói:
“Khá rõ ràng rằng bất kỳ công cụ tìm kiếm nào sẽ sử dụng dữ liệu nhấp chuột trên kết quả của chính chúng để xếp hạng nhằm cải thiện chất lượng kết quả tìm kiếm. Cơ chế thực tế về cách dữ liệu nhấp chuột được sử dụng thường là độc quyền, nhưng Google cho rằng họ sử dụng dữ liệu nhấp chuột trên các hệ thống của họ để điều chỉnh thứ hạng. ”
Bởi vì Google cần cải thiện chất lượng tìm kiếm, nên các chỉ số mang tính chất tăng tương tác rất quan trọng, nhưng có vẻ như Google không gọi các chỉ số tương tác là “tín hiệu để xếp hạng” vì những chỉ số đó được sử dụng để cải thiện chất lượng tìm kiếm và xếp hạng của các URL riêng lẻ chỉ là sản phẩm phụ của việc đó.
Sự tương tác không thay đổi chất lượng khách quan của trang web của bạn, mà là giá trị của bạn đối với người dùng so với các kết quả khác cho truy vấn đó.
Đó là lý do tại sao, sau khi không có thay đổi nào đối với trang của bạn hoặc các backlink, nó có thể giảm thứ hạng nếu hành vi của người dùng cho thấy họ thích các trang khác hơn.
Về mặt xếp hạng các trang web, các chỉ số tương tác hoạt động giống như một công cụ xác minh tính xác thực. Các yếu tố khách quan như liên kết và nội dung đầu tiên xếp hạng trang, sau đó là các chỉ số tương tác giúp Google điều chỉnh nếu họ không làm đúng.
Sự phát triển của kết quả tìm kiếm
Trong bối ngày nay, giữ vị trí số 1 là mục đích của hoạt động SEO. Nhưng rồi một điều gì đó đã xảy ra. Google đã bắt đầu thêm các kết quả ở các định dạng mới trên các trang kết quả tìm kiếm của họ, được gọi là các tính năng SERP. Một số tính năng SERP như :
- Quảng cáo trả tiền (Paid advertisements)
- Đoạn trích nổi bật (Featured snippets)
- Mọi người cũng hỏi (People Also Ask boxes)
- Bản đồ địa phương (Local map)
- Bảng tri thức (Knowledge panel)
- Liên kết trang web (Sitelinks)
Việc bổ sung các tính năng này gây ra một số hoang mang vì nhiều tính năng trong số này khiến kết quả không phải trả tiền bị đẩy xuống sâu hơn trên SERP.
Lưu ý cách các loại tính năng SERP khác nhau khớp với các loại truy vấn khác nhau.
Mục đích truy vấn | Tính năng SERP có thể được kích hoạt |
---|---|
Thông tin | Đoạn trích nổi bật |
Thông tin với một câu trả lời | Sơ đồ tri thức / câu trả lời tức thì |
Địa phương | Bản đồ |
Giao dịch | Mua sắm |
Tìm kiếm bản địa hóa (Localized search)
Giả sử Google có chỉ mục độc quyền của riêng nó về danh sách doanh nghiệp địa phương, từ đó nó tạo ra các kết quả tìm kiếm địa phương.
Nếu bạn đang thực hiện công việc SEO địa phương cho một doanh nghiệp có địa điểm thực tế mà khách hàng có thể ghé thăm (ví dụ: nha sĩ), hãy đảm bảo rằng bạn đã xác nhận, xác minh và tối ưu hóa miễn phí trên Danh sách Doanh nghiệp của tôi trên Google . Khi nói đến kết quả tìm kiếm được bản địa hóa, Google sử dụng ba yếu tố chính để xác định xếp hạng:
- Sự liên quan
- Khoảng cách
- Sự nổi bật
Sự liên quan
Mức độ liên quan là mức độ phù hợp của một doanh nghiệp địa phương với những gì người dùng đang tìm kiếm. Để đảm bảo rằng doanh nghiệp có nội dung liên quan đến người dùng, hãy đảm bảo rằng thông tin của doanh nghiệp được điền đầy đủ và chính xác.
Khoảng cách
Google sử dụng định vị để cung cấp các kết quả địa phương hóa tốt hơn. Kết quả đề cập đến vị trí của người dùng và vị trí được chỉ định trong truy vấn (nếu người tìm kiếm bao gồm vị trí đó).
Sự nổi bật
Với sự nổi bật là một yếu tố quan trọng, Google luôn tìm cách hỗ trợ cho các doanh nghiệp có danh tiếng, uy tín như Pepsi, Coca-Cola trong việc xuất hiện ở truy vấn tìm kiếm của người dùng. Ngoài sự nổi bật của một doanh nghiệp, Google cũng xem xét một số yếu tố trực tuyến để xác định xếp hạng địa phương hóa, chẳng hạn như:
Nhận xét, đánh giá (Reviews)
Số lượng đánh giá trên Google mà một doanh nghiệp địa phương nhận được và cảm xúc của những đánh giá đó, có tác động đáng kể đến khả năng xếp hạng của họ trong kết quả địa phương hóa.
Trích dẫn (Citations)
“Trích dẫn doanh nghiệp” hoặc “danh sách doanh nghiệp (business listing)” là tham chiếu dựa trên web đến “NAP” của doanh nghiệp địa phương (N – Name: tên, A – Address: địa chỉ, P – Phone: số điện thoại) trên nền tảng bản địa hóa.
Thứ hạng trên địa phương hóa bị ảnh hưởng bởi cả số lượng và tính nhất quán của các trích dẫn được bổ sung trong mục kinh doanh địa phương.
Google lấy dữ liệu từ nhiều nguồn khác nhau để liên tục tạo chỉ mục doanh nghiệp địa phương của mình. Khi Google tìm thấy nhiều tham chiếu nhất quán đến tên, vị trí và số điện thoại của doanh nghiệp, điều đó sẽ củng cố “niềm tin” của Google về tính hợp lệ của dữ liệu đó.
Sau đó, điều này dẫn đến việc Google có thể hiển thị doanh nghiệp với mức độ tin cậy cao hơn. Google cũng sử dụng thông tin từ các nguồn khác trên web, chẳng hạn như các liên kết và bài báo.
Xếp hạng tự nhiên (Organic ranking)
Các phương pháp hay nhất về SEO cũng áp dụng cho SEO địa phương, vì Google cũng xem xét vị trí của trang web trong kết quả tìm kiếm không phải trả tiền khi xác định xếp hạng địa phương.
Tương tác tại địa phương (Local engagement)
Mặc dù không được Google liệt kê như một yếu tố xếp hạng dành riêng ở địa phương, nhưng vai trò của mức độ tương tác sẽ chỉ tăng lên theo thời gian. Google tiếp tục làm phong phú thêm các kết quả địa phương hóa bằng cách kết hợp dữ liệu trong tức thời như thời gian ghé thăm phổ biến và thời gian ghé thăm trung bình v.v.
Tính tương tác này là cách người dùng tương tác và phản hồi với các doanh nghiệp địa phương, thay vì thông tin thuần túy tĩnh như liên kết và trích dẫn. Vì Google muốn cung cấp kết quả từ các doanh nghiệp ở địa phương tốt nhất, phù hợp nhất cho người dùng, nên việc sử dụng các chỉ số tương tác trong thời gian thực để xác định chất lượng và mức độ phù hợp là rất hợp lý.
Bạn không cần phải biết chi tiết về thuật toán của Google, nhưng bây giờ bạn đã có kiến thức cơ bản về cách bộ máy tìm kiếm tìm, mã hóa, lưu trữ và xếp hạng nội dung. Chúc bạn thành công trong việc tối ưu thứ hạng với mục tiêu trọng tâm là trải nghiệm người dùng.